En el presente estudio se procederá a analizar el data set llamado “Netflix Prize data” obtenido en la página web Kaggle. Dicho dataset se creó como una competición para encontrar el mejor algoritmo de predicción de la puntuación que los usuarios dan a las películas de la plataforma.
Antes de extraer la información y comenzar a trabajar sobre ella se ha procedido a visualizar a qué tipo de datos íbamos a enfrentarnos. El dataset contiene diversos archivos pero solo nos centraremos con los que vamos a trabajar en este estudio:
Los archivos ‘combined_data_{nº}’ contienen la información de las puntuaciones de los usuarios para determinado código de película, así como el identificador de usuario y la fecha (día, mes y año) en la que se dio dicha valoración.
Esta base de datos cuenta con un tamaño de espacio en memoria demasiado elevado, por lo que se procederá a extraer los datos de 250 películas escogidas de manera aleatoria con una semilla (“2495”).
Otro de los archivos que se utilizarán en este estudio contiene el título de cada ID asociado a las películas además del año en el que se estrenó. En secciones posteriores explicaremos como realizaremos la inclusión de estos datos junto con los datos iniciales para obtener el dataset final con el que trabajaremos de forma más cómoda.
Una vez realizado este proceso generaremos una nueva variable para incluirla en nuestro estudio ya que sería interesante medir la diferencia de años transcurridos desde el estreno hasta la puntuación de las diferentes películas (“YearsSinceRelease”).
El primer paso para realizar la carga de datos es leer el fichero “filas_ID_combined_all.txt” de donde obtendremos por cada ID de película el número del fichero donde se encuentran las puntuaciones de cada usuario y las posiciones de la fila inicial y final de estas. De la misma forma, cargaremos los cuatro ficheros ‘combined_data_{nº}’ con la información de las puntuaciones de las películas.
Ya que el fichero “filas_ID_combined_all.txt” cuenta con la información de todas las películas, después de exportarlo realizaremos un filtrado para quedarnos solo con las filas de las 250 películas que nos interesan estudiar. Seguidamente, utilizaremos la función obtain_movies para que, pasados los parámetros del fichero “filas_ID_combined_all.txt” y el ID de ‘combined_data_{nº}’, calculemos todas las posiciones a leer y nos devuelva un combined_data con solo las observaciones de las películas que sabemos que se encuentran en dicho fichero.
#Función que obtiene los datos de filas específicas
obtain_movies = function(idx, combined_data, index_data){
#Obtenemos las películas del archivo a leer (1,2,3 o 4)
rows_data = filter(index_data, data == idx)
rows_data = select(rows_data, fila, fila_final)
#Por cada fila guardamos el rango de posiciones a leer en el fichero
range = apply(rows_data, 1, function(i){c(i[1]:i[2])})
range = unlist(range)
#Nos quedamos solo con los datos de las películas de la muestra
return (slice(combined_data[[idx]], range))
}#Obtenemos nuestra muestra de películas
n_muestra = 250
set.seed(2495)
muestra_grupo = sample(1:17770, n_muestra, replace = FALSE)
#Leemos el fichero y nos quedamos con el índice de las películas de nuestra muestra
filas_ID_combined_all = read.csv("data/filas_ID_combined_all.txt")
filas_ID_combined_all %<>%
filter(filas_ID_combined_all$ID %in% muestra_grupo) %>%
select(ID, fila, fila_final, data)
#Cargamos los ficheros con la información de Netflix
file_names = list.files("data/", pattern = "^combined_data")
file_list = lapply(file_names, function(i){read_tsv(file.path("data", i), col_names = FALSE)})
#Leemos las observaciones de las películas de nuestra muestra por cada fichero
data_list = lapply(seq_along(file_list), FUN = obtain_movies, combined_data = file_list, index_data = filas_ID_combined_all)
#Juntamos los datos de las películas de los 4 ficheros
df_ratings = bind_rows(data_list)
#Exportamos los datos de las películas de nuestra muestra
write.table(df_ratings,"data/data_sample.txt", row.names = FALSE, col.names = FALSE)
#Eliminamos variables que ya no son útiles
rm(data_list, file_list, file_names, filas_ID_combined_all)Una vez hemos exportado los ficheros necesarios y filtrado las observaciones de interés, procedemos a la limpieza de datos y construcción del modelo de datos final. Generamos un dataframe que por cada observación contenga: ID de la película, ID de usuario, calificación y fecha de calificación.
#Se asigna una posición a cada observación para posteriormente indicar el id de película de cada una de ellas
df_ratings = df_ratings %>%
mutate(Idx = row_number())
#Guardamos la fila donde empieza cada película
movie_rows = grep(":", df_ratings$X1)
#Añadimos el id de la película a cada posición y eliminamos el caracter ":"
rows_ID = df_ratings %>%
filter(Idx %in% movie_rows) %>%
mutate(X1 = as.integer(gsub(":","",X1)))
#Número de veces que se tendrá que repetir el identificador de cada película
reps = diff(c(rows_ID$Idx, max(df_ratings$Idx) + 1))
netflix = df_ratings %>%
mutate(MovieID = rep(rows_ID$X1, times = reps)) %>%
filter(!(Idx %in% rows_ID))
#Se definen las columnas del dataframe
netflix %<>%
separate(X1,into = c("UserID","Rating","RatingDate"), sep = ",") %>%
na.omit(netflix) %>%
mutate(Idx = row_number())
#Se eliminan las variables auxiliares
rm(df_ratings, movie_rows, rows_ID, reps)Con el objetivo de completar nuestro dataset, realizamos la unión de la tibble netflix con los datos exportados del fichero movies_titles.csv, añadiendo así la variable del nombre de la película y el año de estreno. Una vez se ha realizado el inner join, se procede al cambio de tipo de cada variable para que concuerde con la información que representan.
#Lectura del fichero movie_titles.csv
df_movies = read_tsv("data/movie_titles.csv", locale = readr::locale(encoding = "ISO-8859-1"), col_names=FALSE)
df_movies %<>%
separate(X1,",",into =c("MovieID","MovieRelease","Title"), extra="merge") %>%
filter(MovieID %in% muestra_grupo)
#Se transforma la variable MovieRelease a numérica
df_movies$MovieRelease = as.numeric(df_movies$MovieRelease)
#Se transforma la variable MovieRelease a numérica
netflix$MovieID = as.character(netflix$MovieID)
#Se unifica el dataframe de las puntuaciones con el de las películas
netflix = inner_join(x = netflix, y = df_movies, by = "MovieID", all = TRUE)
#Se transforma la variable 'Rating' a tipo númerica
netflix$Rating = as.numeric(netflix$Rating)
#Se transforma la variable 'RatingDate' a tipo date
netflix$RatingDate = as.Date(netflix$RatingDate, format = "%Y-%m-%d")
#Se añade la diferencia en años entre el año de puntuación y el de estreno de la película
netflix = mutate(netflix, YearsSinceRelease = year(RatingDate) - MovieRelease)
#Se transforma la variable YearsSinceRelease a numérica
netflix$YearsSinceRelease = as.numeric(netflix$YearsSinceRelease)
#Adicionalmente, dividimos la variable RatingDate en: día, mes y año
#Se ordenan las posiciones de las columnas y se indican su nuevo nombre
netflix %<>%
separate(RatingDate,into = c("Year","Month","Day"), sep = "-", remove = FALSE) %>%
na.omit(netflix) %>%
mutate(Idx = row_number()) %>%
select(Idx, MovieID, Title, UserID, Rating, Day, Month, Year, RatingDate, MovieRelease, YearsSinceRelease)
#Exportamos el fichero preparado y construido para empezar a trabajar en su análisis
write.csv(netflix, "data/netflix.csv", row.names = FALSE)Una vez tenemos la tibble final sobre la que vamos a trabajar, procedemos a estudiar su estructura:
## tibble [1,093,856 x 11] (S3: tbl_df/tbl/data.frame)
## $ Idx : int [1:1093856] 1 2 3 4 5 6 7 8 9 10 ...
## $ MovieID : chr [1:1093856] "43" "43" "43" "43" ...
## $ Title : chr [1:1093856] "Silent Service" "Silent Service" "Silent Service" "Silent Service" ...
## $ UserID : chr [1:1093856] "305151" "497196" "2327803" "2625420" ...
## $ Rating : num [1:1093856] 4 3 1 2 5 2 1 3 5 2 ...
## $ Day : chr [1:1093856] "20" "13" "19" "13" ...
## $ Month : chr [1:1093856] "02" "04" "08" "05" ...
## $ Year : chr [1:1093856] "2005" "2003" "2001" "2004" ...
## $ RatingDate : Date[1:1093856], format: "2005-02-20" "2003-04-13" ...
## $ MovieRelease : num [1:1093856] 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 ...
## $ YearsSinceRelease: num [1:1093856] 5 3 1 4 3 3 5 2 3 3 ...
Idx: Variable numérica que determina la posición o índice de cada observación del dataset.
MovieID: Variable [TODO] que identifica a cada película con un ID determinado, este ID está asociado a un título que será representado por la variable “Title”.
Title: Variable con datos definidos como caracteres. Esta variable representa el título de cada una de las películas identificadas con un ID en la variable “MovieID”.
UserID: Variable con datos definidos como caracteres que representa el ID único del usuario que ha calificado la película.
Rating: Variable numérica ordinal que representa la calificación que ha hecho cada usuario de las películas que ha puntuado. Esta calificación puede ser dentro del rango [1,2,3,4,5], donde 1 estrella representa la calificación más baja y 5 estrellas la calificación más alta.
RatingDate: Variable definida como tipo **date*, que representa la fecha en la cual el usuario realizó la calificación de una determinada película.
MovieRelease: Variable numérica que indica el año en el cual se estrenó la película. El año de estreno puede referirse tanto a estreno de una determinada película en el cine como en DVD.
YearsSinceRelease: Variable numérica la cual se ha calculado mediante la resta de RatingDate y MovieRelease. Esta variable indica el número de años que ha pasado desde que se ha estrenado una determinada película hasta que el usuario la ha calificado.
ggplot(data = netflix, aes(x = Rating)) +
geom_bar(aes(y = ..count.., fill = ..count..),
stat="count",
show.legend = FALSE) +
geom_label(aes(label = ..count.., y = ..count..),
stat = "count",
vjust = -.5) +
scale_fill_gradient(low = "lightcoral", high = "firebrick2")+
labs(x = "Rating", y = "Number of ratings", title = "Total Ratings by stars")+
scale_y_continuous(limits=c(0,380000), labels = scales::comma)+
coord_flip() +
theme_classic()
# Image in the visualization
image = image_read("imgs/icon-rating.png")
grid.raster(image, x = 0.80, y = 0.25, height = 0.23)Número total de calificaciones por estrella.
Como se puede observar en el gráfico, las puntuaciones generalmente han sido positivas ya que el mayor número de concentración de observaciones se encuentra entre 3 estrellas o más. De hecho, si realizamos la medía de todas las calificaciones vemos que es de 3.5603827 estrellas.
La calificación de 4 estrellas es la moda con un total de 368895 votaciones.
Para comprobar si hay diferencia entre el número de votaciones que hay en total dependiedo del mes del año se ha representado la distribución porcentual en un diagrama de barras.
bar_plot2 = ggplot(data = netflix) +
geom_bar(aes(x = Month, y = ..count../sum(..count..), fill = ..count../sum(..count..)),
show.legend = FALSE,
color = c("darkslategray3", "darkslategray3", "darkslategray3", "lightpink2",
"lightpink2", "lightpink2", "lightgoldenrod2", "lightgoldenrod2", "lightgoldenrod2",
"tan2", "tan2", "tan2"),
fill = c("darkslategray2", "darkslategray2", "darkslategray2", "lightpink1",
"lightpink1", "lightpink1", "lightgoldenrod1", "lightgoldenrod1", "lightgoldenrod1",
"tan1", "tan1", "tan1"),
size = 1) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1),
limits = c(0, 0.15)) +
scale_x_discrete(labels = month.abb) +
ylab("% Ratings") +
xlab("Rating month") +
ggtitle("Percentage of ratings by month") +
theme_minimal()
div(ggplotly(bar_plot2), align ="center")Podemos deducir que el periodo de otoño, después de las vacaciones de verano es cuando los usuarios visualizan y votan más películas de la plataforma, lo que tiene sentido ya que con el cambio de estación y rutina la gente realiza planes o actividades más relacionadas con estar en casa.
#Añadimos una variable nueva en el dataset que indique el día de la semana según la fecha de la calificación
netflix$DayOfWeek = weekdays(netflix$RatingDate)
bar_plot3 = ggplot(data = netflix) +
geom_bar(aes(x = DayOfWeek, y = ..count../sum(..count..), fill = ..count../sum(..count..)),
show.legend = FALSE,
color = c("indianred4", "lightgoldenrod2", "palevioletred2", "palegreen4",
"tan2", "steelblue3", "mediumorchid4"),
fill = c("indianred3", "lightgoldenrod1", "palevioletred1", "palegreen3",
"tan1", "steelblue2", "mediumorchid3"),
size = 1) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1),
limits = c(0, 0.25)) +
scale_x_discrete(limits = c("lunes", "martes", "miércoles", "jueves", "viernes", "sábado", "domingo")) +
ylab("% Ratings") +
xlab("Rating day of week") +
ggtitle("Percentage of ratings by day of week") +
theme_minimal()
div(ggplotly(bar_plot3), align ="center")El número de votaciones según el día de la semana sigue una distribución asimétrica positiva. Es decir, a principios de semana se califican más películas y, a medida que se acerca el fin de semana, el número de votaciones se reduce.El martes es el día de la semana en el cual se han registrado más calificaciones con un 17.77% del total, mientras que el sábado es el día en el cual se han calificado menos películas con un 9.82% del total.
Se observa que de lunes a jueves se encuentra más del 60% de las calificaciones y, el viernes y fin de semana son los días en los cuales se puntúan un menor número de películas. Esto se puede explicar a los planes que normalmente pueden tener los usuarios, ya que el fin de semana se hacen más planes fuera de casa, mientras que entre semana al ser día laboral la gente normalmente pasa más tiempo en casa y es más propensar a utilizar la plataforma.
movies_title = sort(table(netflix$Title), decreasing = TRUE)
movies_title = as.data.frame(movies_title) %>%
rename(Title = Var1)
set.seed(2)
ggplot(movies_title, aes(label = Title,
size = Freq,
color = Freq,
angle = sample(c(0,15,30, 45,60, 75,90, 105,120,135, 160), 250, replace = TRUE))) +
geom_text_wordcloud_area(mask = png::readPNG("imgs/netflix-mask2.png"),
rm_outside = T) +
scale_color_gradient(low = "indianred1", high = "red2") +
theme_minimal()Películas más votadas.
set.seed(2495)
div(wordcloud2(movies_title, size = 0.39), align ="center")
import pandas as pd
pd.set_option('display.max_columns', None)
netflix_py = pd.read_csv("data/netflix.csv")
res = pd.concat([netflix_py.groupby('Title')['Rating'].describe(),
netflix_py.groupby('Title')['Rating'].agg(pd.Series.mode).rename('mode'),
netflix_py.groupby('Title')['Rating'].agg(pd.Series.median).rename('median')
], axis=1)
print(res)## count mean \
## Title
## 2 Seconds 221.0 3.239819
## 227: Season 1 296.0 3.422297
## A Different Loyalty 334.0 2.476048
## A Thousand Acres 2375.0 3.139789
## Abraham and Mary Lincoln: A House Divided: Amer... 153.0 3.784314
## ... ... ...
## Winning London 1874.0 3.495197
## Wise Guys 211.0 2.981043
## Wolverine 185.0 2.913514
## Wonder Woman: Season 3 398.0 3.723618
## Yes: House of Yes: Live from the House of Blues 99.0 3.424242
##
## std min 25% 50% \
## Title
## 2 Seconds 1.217840 1.0 2.0 3.0
## 227: Season 1 1.278523 1.0 3.0 3.0
## A Different Loyalty 0.912556 1.0 2.0 2.0
## A Thousand Acres 0.972146 1.0 3.0 3.0
## Abraham and Mary Lincoln: A House Divided: Amer... 1.087859 1.0 3.0 4.0
## ... ... ... ... ...
## Winning London 1.178753 1.0 3.0 4.0
## Wise Guys 1.064412 1.0 2.0 3.0
## Wolverine 1.028444 1.0 2.0 3.0
## Wonder Woman: Season 3 1.168001 1.0 3.0 4.0
## Yes: House of Yes: Live from the House of Blues 1.286436 1.0 3.0 4.0
##
## 75% max mode median
## Title
## 2 Seconds 4.00 5.0 3 3.0
## 227: Season 1 4.25 5.0 3 3.0
## A Different Loyalty 3.00 5.0 2 2.0
## A Thousand Acres 4.00 5.0 3 3.0
## Abraham and Mary Lincoln: A House Divided: Amer... 5.00 5.0 4 4.0
## ... ... ... ... ...
## Winning London 4.00 5.0 3 4.0
## Wise Guys 4.00 5.0 3 3.0
## Wolverine 3.00 5.0 3 3.0
## Wonder Woman: Season 3 5.00 5.0 5 4.0
## Yes: House of Yes: Live from the House of Blues 4.00 5.0 4 4.0
##
## [250 rows x 10 columns]
res2 = pd.concat([netflix_py.groupby('Title')['Rating'].describe(),
netflix_py.groupby('Title')['Rating'].agg(pd.Series.mode).rename('mode'),
netflix_py.groupby('Title')['Rating'].agg(pd.Series.median).rename('median')
], axis=1).T
print(res2)## Title 2 Seconds 227: Season 1 A Different Loyalty A Thousand Acres \
## count 221.000000 296.000000 334.000000 2375.000000
## mean 3.239819 3.422297 2.476048 3.139789
## std 1.217840 1.278523 0.912556 0.972146
## min 1.000000 1.000000 1.000000 1.000000
## 25% 2.000000 3.000000 2.000000 3.000000
## 50% 3.000000 3.000000 2.000000 3.000000
## 75% 4.000000 4.250000 3.000000 4.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 2.000000 3.000000
## median 3.000000 3.000000 2.000000 3.000000
##
## Title Abraham and Mary Lincoln: A House Divided: American Experience \
## count 153.000000
## mean 3.784314
## std 1.087859
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Ah! My Goddess: The Movie And the Ship Sails On Andrei Rublev \
## count 939.000000 491.000000 1741.000000
## mean 3.958466 3.356415 3.679495
## std 1.095338 1.129048 1.306737
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000
## 50% 4.000000 3.000000 4.000000
## 75% 5.000000 4.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 5.000000 3.000000 5.000000
## median 4.000000 3.000000 4.000000
##
## Title Android Kikaider Animal Farm Arachnophobia \
## count 246.000000 297.000000 9826.000000
## mean 3.235772 3.343434 3.248321
## std 1.309814 0.988053 0.976367
## min 1.000000 1.000000 1.000000
## 25% 2.000000 3.000000 3.000000
## 50% 3.000000 3.000000 3.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title Arrested Development: Season 1 \
## count 19358.000000
## mean 4.330871
## std 1.038639
## min 1.000000
## 25% 4.000000
## 50% 5.000000
## 75% 5.000000
## max 5.000000
## mode 5.000000
## median 5.000000
##
## Title Avant-Garde: Experimental Cinema of the 1920s and '30s \
## count 57.000000
## mean 3.245614
## std 1.313130
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 4.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title Baa Baa Black Sheep: Season 1 Bad Boys \
## count 477.000000 61174.000000
## mean 3.813417 3.715909
## std 1.130548 0.995681
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 4.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 4.000000
## median 4.000000 4.000000
##
## Title Bad Girls Go to Hell/ Another Day Another Man Barabbas \
## count 169.000000 1268.000000
## mean 2.331361 3.254732
## std 1.178790 0.984778
## min 1.000000 1.000000
## 25% 1.000000 3.000000
## 50% 2.000000 3.000000
## 75% 3.000000 4.000000
## max 5.000000 5.000000
## mode 1.000000 3.000000
## median 2.000000 3.000000
##
## Title Barry Manilow: Copacabana \
## count 193.000000
## mean 2.839378
## std 1.282942
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 4.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title Bellydance Fitness for Weight Loss: Too Hip \
## count 128.000000
## mean 2.656250
## std 1.193404
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 3.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title Best of the Chris Rock Show: Vol. 2 Big Bad Mama 2 Blacktop \
## count 1284.000000 194.000000 312.000000
## mean 3.591121 2.350515 2.785256
## std 1.136217 1.048475 1.112068
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 2.000000
## 50% 4.000000 2.000000 3.000000
## 75% 4.000000 3.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 2.000000 3.000000
## median 4.000000 2.000000 3.000000
##
## Title Bob the Builder: Can We Fix It? Bolshoi Ballet '67 \
## count 437.000000 81.000000
## mean 3.553776 2.802469
## std 1.163262 1.229021
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title Boris and Natasha Britney Spears: Greatest Hits: My Prerogative \
## count 262.000000 518.000000
## mean 2.053435 3.415058
## std 1.049086 1.305962
## min 1.000000 1.000000
## 25% 1.000000 3.000000
## 50% 2.000000 4.000000
## 75% 3.000000 4.000000
## max 5.000000 5.000000
## mode 2.000000 4.000000
## median 2.000000 4.000000
##
## Title Buddy Rich: The Lost West Side Story Tapes \
## count 141.000000
## mean 3.489362
## std 1.180902
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 4.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Buffy the Vampire Slayer: Season 1 \
## count 14718.000000
## mean 4.075486
## std 1.184804
## min 1.000000
## 25% 4.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 5.000000
## median 4.000000
##
## Title Burn Up Excess: Vol. 4: The Case of the Black Diamonds Butterfly \
## count 340.000000 311.000000
## mean 3.708824 3.006431
## std 1.233951 1.212817
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 5.000000 3.000000
## median 4.000000 3.000000
##
## Title By Brakhage: An Anthology \
## count 207.000000
## mean 3.492754
## std 1.287994
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 5.000000
## median 4.000000
##
## Title Cartoon Network Christmas: Yuletide Follies Cash Crop \
## count 158.000000 277.000000
## mean 3.373418 2.310469
## std 1.120078 0.995096
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 3.000000 2.000000
## 75% 4.000000 3.000000
## max 5.000000 5.000000
## mode 3.000000 2.000000
## median 3.000000 2.000000
##
## Title Cecil B. Demented Charlie Chan and the Curse of the Dragon Queen \
## count 6695.000000 107.00000
## mean 2.923824 2.46729
## std 1.175588 1.24626
## min 1.000000 1.00000
## 25% 2.000000 1.00000
## 50% 3.000000 3.00000
## 75% 4.000000 3.00000
## max 5.000000 5.00000
## mode 3.000000 3.00000
## median 3.000000 3.00000
##
## Title Chasing Freedom Chi-Hwa-Seon: Painted Fire \
## count 185.000000 523.000000
## mean 3.297297 3.464627
## std 1.039044 1.039540
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title Chopper Chicks in Zombietown Cinderfella Class of Nuke 'Em High \
## count 365.000000 691.000000 1013.000000
## mean 2.435616 3.437048 2.978282
## std 1.164655 1.129327 1.200923
## min 1.000000 1.000000 1.000000
## 25% 2.000000 3.000000 2.000000
## 50% 2.000000 3.000000 3.000000
## 75% 3.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 2.000000 3.000000 3.000000
## median 2.000000 3.000000 3.000000
##
## Title Clint Eastwood: Out of the Shadows Cold Creek Manor Come September \
## count 434.000000 32479.00000 1043.000000
## mean 3.221198 3.07454 3.451582
## std 1.109236 0.98565 0.997263
## min 1.000000 1.00000 1.000000
## 25% 3.000000 2.00000 3.000000
## 50% 3.000000 3.00000 3.000000
## 75% 4.000000 4.00000 4.000000
## max 5.000000 5.00000 5.000000
## mode 3.000000 3.00000 3.000000
## median 3.000000 3.00000 3.000000
##
## Title Cops: Caught in the Act Coupling: Season 1 Cronos Cry Uncle \
## count 605.000000 7267.000000 2146.000000 87.000000
## mean 3.047934 3.975781 2.974371 2.229885
## std 1.259145 1.204733 1.066461 1.075100
## min 1.000000 1.000000 1.000000 1.000000
## 25% 2.000000 3.000000 2.000000 1.000000
## 50% 3.000000 4.000000 3.000000 2.000000
## 75% 4.000000 5.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 3.000000 5.000000 3.000000 1.000000
## median 3.000000 4.000000 3.000000 2.000000
##
## Title Curb Your Enthusiasm: Season 4 Death in Gaza Deewana Mastana \
## count 7138.000000 1074.000000 151.000000
## mean 4.363127 3.768156 2.741722
## std 0.986015 1.079017 1.328977
## min 1.000000 1.000000 1.000000
## 25% 4.000000 3.000000 2.000000
## 50% 5.000000 4.000000 3.000000
## 75% 5.000000 5.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 5.000000 4.000000 3.000000
## median 5.000000 4.000000 3.000000
##
## Title Detention Diary of a Serial Killer Dirt Merchant \
## count 160.000000 94.000000 219.000000
## mean 2.750000 2.244681 2.246575
## std 0.990521 1.023237 1.205273
## min 1.000000 1.000000 1.000000
## 25% 2.000000 1.000000 1.000000
## 50% 3.000000 2.000000 2.000000
## 75% 3.000000 3.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 2.000000 1.000000
## median 3.000000 2.000000 2.000000
##
## Title Dragon Ball Z: Great Saiyaman: Gohan's Secret Dragon Chronicles \
## count 463.000000 98.000000
## mean 3.900648 2.500000
## std 1.330161 1.168751
## min 1.000000 1.000000
## 25% 3.000000 1.250000
## 50% 4.000000 3.000000
## 75% 5.000000 3.000000
## max 5.000000 5.000000
## mode 5.000000 3.000000
## median 4.000000 3.000000
##
## Title Dragon Tales: Let's Start a Band Dreadnaught Drums Along the Mohawk \
## count 115.000000 184.000000 413.000000
## mean 2.773913 2.945652 3.692494
## std 1.338111 1.253316 0.977845
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 3.000000
## 50% 3.000000 3.000000 4.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 4.000000
## median 3.000000 3.000000 4.000000
##
## Title Eaten Alive Eddie Izzard: Circle Eden Edie and Pen \
## count 137.000000 3310.000000 114.000000 99.000000
## mean 2.299270 3.705438 2.649123 2.797980
## std 1.184241 1.077505 1.152008 0.968692
## min 1.000000 1.000000 1.000000 1.000000
## 25% 1.000000 3.000000 2.000000 2.000000
## 50% 2.000000 4.000000 3.000000 3.000000
## 75% 3.000000 5.000000 3.000000 3.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 2.000000 4.000000 3.000000 3.000000
## median 2.000000 4.000000 3.000000 3.000000
##
## Title Edward & Mrs. Simpson Eight Crazy Nights Ellis Island \
## count 105.000000 6402.00000 172.000000
## mean 3.095238 2.88035 3.093023
## std 1.213100 1.20681 1.253094
## min 1.000000 1.00000 1.000000
## 25% 2.000000 2.00000 2.000000
## 50% 3.000000 3.00000 3.000000
## 75% 4.000000 4.00000 4.000000
## max 5.000000 5.00000 5.000000
## mode 3.000000 3.00000 3.000000
## median 3.000000 3.00000 3.000000
##
## Title Empires: The Medici, Godfathers of the Renaissance \
## count 548.000000
## mean 4.144161
## std 0.880015
## min 1.000000
## 25% 4.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Entrails of a Virgin Exorcist 3 Face the Evil \
## count 215.000000 2731.000000 110.000000
## mean 2.320930 3.044672 2.336364
## std 1.116687 1.171166 1.042908
## min 1.000000 1.000000 1.000000
## 25% 1.000000 2.000000 2.000000
## 50% 2.000000 3.000000 2.000000
## 75% 3.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 2.000000
## median 2.000000 3.000000 2.000000
##
## Title Falling for a Dancer Final Destination Fist of Fear, Touch of Death \
## count 139.000000 54845.000000 113.000000
## mean 3.525180 3.486352 2.539823
## std 1.275925 1.022083 1.376041
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 1.000000
## 50% 4.000000 4.000000 2.000000
## 75% 5.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 1.000000
## median 4.000000 4.000000 2.000000
##
## Title Five Easy Pieces Flame of Barbary Coast \
## count 11599.000000 646.000000
## mean 3.683680 3.575851
## std 0.983412 1.026610
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 4.000000
## median 4.000000 4.000000
##
## Title Fraggle Rock: Live by the Rule of the Rock Freaky Friday \
## count 510.000000 80136.000000
## mean 4.003922 3.551774
## std 1.085710 0.965022
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 4.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 5.000000 4.000000
## median 4.000000 4.000000
##
## Title French & Saunders: At the Movies Geneshaft \
## count 1023.000000 295.000000
## mean 3.276637 3.620339
## std 1.181524 1.142080
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title Gilligan's Island: Season 2 Go West / The Big Store Godannar \
## count 1104.000000 627.000000 43.000000
## mean 3.791667 3.840510 4.023256
## std 1.078969 1.034586 0.801438
## min 1.000000 1.000000 3.000000
## 25% 3.000000 3.000000 3.000000
## 50% 4.000000 4.000000 4.000000
## 75% 5.000000 5.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 4.000000 4.000000
## median 4.000000 4.000000 4.000000
##
## Title Godzilla vs. Gigan Good Morning, Vietnam Great Expectations \
## count 311.000000 82949.000000 13279.000000
## mean 3.456592 3.851776 3.308758
## std 1.195643 0.894887 0.972591
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000
## 50% 3.000000 4.000000 3.000000
## 75% 4.000000 5.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 4.000000 3.000000
## median 3.000000 4.000000 3.000000
##
## Title Gunsmoke: Return to Dodge Hanzo the Razor: Who's Got the Gold? \
## count 158.000000 98.000000
## mean 3.018987 3.316327
## std 1.207574 1.264886
## min 1.000000 1.000000
## 25% 2.000000 2.250000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 3.000000
##
## Title Hard Eight Harry and Max Hell's Gate Hercules \
## count 7788.000000 1004.000000 253.000000 18464.000000
## mean 3.451207 2.814741 2.209486 3.680730
## std 0.962936 1.136515 1.079935 1.003836
## min 1.000000 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 1.000000 3.000000
## 50% 4.000000 3.000000 2.000000 4.000000
## 75% 4.000000 4.000000 3.000000 4.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 2.000000 4.000000
## median 4.000000 3.000000 2.000000 4.000000
##
## Title Here Comes Cookie / Love in Bloom / Six of a Kind: Triple Feature \
## count 106.000000
## mean 3.018868
## std 1.032622
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 3.750000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title Highlander: Season 2 Horror Hotel House of Cards \
## count 2475.000000 267.000000 580.000000
## mean 3.938182 3.078652 3.298276
## std 1.133302 1.109339 1.017463
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 3.000000
## 50% 4.000000 3.000000 3.000000
## 75% 5.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 5.000000 3.000000 3.000000
## median 4.000000 3.000000 3.000000
##
## Title How to Commit Marriage I Fidanzati I'm No Angel \
## count 120.000000 138.000000 273.000000
## mean 2.758333 3.101449 3.010989
## std 1.188148 1.221999 1.205025
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 2.000000
## 50% 3.000000 3.000000 3.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title I've Been Waiting for You In Search of Ancient Ireland \
## count 372.000000 532.000000
## mean 3.061828 3.342105
## std 1.127431 0.995032
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title In the Face of Evil: Reagan's War in Word and Deed Iron Eagle 2 \
## count 78.000000 1223.000000
## mean 3.243590 3.293540
## std 1.596961 1.082376
## min 1.000000 1.000000
## 25% 1.250000 3.000000
## 50% 4.000000 3.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 5.000000 3.000000
## median 4.000000 3.000000
##
## Title Islam: Empire of Faith Jem & The Holograms: Season 3: Part 1 \
## count 857.000000 325.000000
## mean 3.681447 3.683077
## std 1.074359 1.336058
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 4.000000
## 75% 4.000000 5.000000
## max 5.000000 5.000000
## mode 4.000000 5.000000
## median 4.000000 4.000000
##
## Title Jesus Christ Superstar \
## count 4669.000000
## mean 3.537803
## std 1.139440
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 4.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Jethro Tull: Nothing Is Easy: Live at the Isle of Wight 1970 \
## count 106.000000
## mean 3.415094
## std 1.194176
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 4.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Jumanji Kansas City Confidential \
## count 27648.000000 277.000000
## mean 3.517867 3.180505
## std 0.989604 1.140453
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 4.000000 3.000000
##
## Title Ken Burns' America: Brooklyn Bridge Killer's Kiss Killing Zoe \
## count 614.000000 848.000000 6392.000000
## mean 3.687296 3.264151 3.457916
## std 0.936796 1.033575 1.011178
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000
## 50% 4.000000 3.000000 4.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 4.000000
## median 4.000000 3.000000 4.000000
##
## Title Kim Possible: The Secret Files Knightriders La Terra Trema \
## count 1893.000000 156.000000 336.000000
## mean 3.569995 3.115385 3.187500
## std 1.106385 1.083373 1.157954
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 2.000000
## 50% 4.000000 3.000000 3.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 3.000000
## median 4.000000 3.000000 3.000000
##
## Title Larryboy and the Rumor Weed Lassie Come Home \
## count 10.000000 514.000000
## mean 2.400000 3.723735
## std 1.429841 1.032390
## min 1.000000 1.000000
## 25% 1.000000 3.000000
## 50% 2.500000 4.000000
## 75% 3.000000 4.000000
## max 5.000000 5.000000
## mode 1.000000 4.000000
## median 2.500000 4.000000
##
## Title LeapFrog: Talking Words Factory II: The Code Word Caper \
## count 307.000000
## mean 3.680782
## std 1.232348
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title Left Behind: World at War Legend of the Dragon Kings: Black Dragon \
## count 1120.000000 166.000000
## mean 3.373214 3.018072
## std 1.228205 1.243031
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title Lethal Weapon 3 Life Stinks \
## count 75148.000000 1134.000000
## mean 3.813807 3.068783
## std 0.974360 1.082083
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title Live at Knebworth: Parts One, Two & Three Lone Star \
## count 146.000000 13745.000000
## mean 3.116438 3.722008
## std 1.153766 0.996530
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title Lonesome Dove: The Series Losing Control Louisiana Story \
## count 119.000000 110.000000 141.000000
## mean 3.268908 2.245455 3.049645
## std 1.266903 1.126710 1.209051
## min 1.000000 1.000000 1.000000
## 25% 2.500000 1.000000 2.000000
## 50% 3.000000 2.000000 3.000000
## 75% 4.000000 3.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 1.000000 3.000000
## median 3.000000 2.000000 3.000000
##
## Title Lupin the 3rd: Dragon of Doom Luther MLB: 2004 World Series \
## count 425.000000 10740.000000 305.000000
## mean 3.364706 3.599348 3.845902
## std 1.257497 1.000465 1.380977
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000
## 50% 3.000000 4.000000 4.000000
## 75% 4.000000 4.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 4.000000 5.000000
## median 3.000000 4.000000 4.000000
##
## Title Maachis Marked For Death Martin Lawrence: You So Crazy \
## count 179.000000 8292.000000 3752.000000
## mean 3.324022 3.264713 3.485874
## std 1.114780 1.160498 1.224173
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000
## 50% 3.000000 3.000000 4.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 3.000000
## median 3.000000 3.000000 4.000000
##
## Title Masculin Feminin Mating Habits of the Earthbound Human \
## count 166.000000 1132.000000
## mean 3.650602 3.110424
## std 1.060974 1.190590
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title Meet Joe Black Mickey Monster-in-Law Narrow Margin \
## count 38402.000000 2252.000000 48775.000000 2893.000000
## mean 3.532629 3.464476 3.430159 3.528517
## std 1.061795 1.003804 1.061540 0.879476
## min 1.000000 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000 3.000000
## 50% 4.000000 4.000000 3.000000 4.000000
## 75% 4.000000 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 4.000000 4.000000 3.000000 4.000000
## median 4.000000 4.000000 3.000000 4.000000
##
## Title National Lampoon's Van Wilder: Bonus Material New Legend of Shaolin \
## count 481.000000 1625.000000
## mean 2.889813 3.539077
## std 1.320638 1.152147
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title New World Disorder Niea 7 Night Call Nurses \
## count 123.000000 227.000000 157.000000
## mean 3.292683 3.396476 2.012739
## std 1.246186 1.212613 1.120824
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 1.000000
## 50% 3.000000 3.000000 2.000000
## 75% 4.000000 4.000000 2.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 1.000000
## median 3.000000 3.000000 2.000000
##
## Title Night at the Golden Eagle Nirvana: Nevermind Oh, God! Book II \
## count 161.000000 356.000000 1050.000000
## mean 2.285714 3.764045 3.460000
## std 1.174886 1.061728 0.989372
## min 1.000000 1.000000 1.000000
## 25% 1.000000 3.000000 3.000000
## 50% 2.000000 4.000000 3.000000
## 75% 3.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 1.000000 4.000000 3.000000
## median 2.000000 4.000000 3.000000
##
## Title Oingo Boingo: Farewell Once Were Warriors \
## count 120.000000 4294.000000
## mean 3.658333 3.832324
## std 1.233263 1.044243
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 4.000000
## 75% 5.000000 5.000000
## max 5.000000 5.000000
## mode 4.000000 4.000000
## median 4.000000 4.000000
##
## Title Organizing from the Inside Out with Julie Morgenstern Paradise \
## count 184.000000 539.000000
## mean 3.146739 3.220779
## std 1.138108 0.935392
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title Party Monster: The Shockumentary Patlabor WXIII: The Movie \
## count 4196.000000 669.000000
## mean 3.109390 3.076233
## std 1.100741 1.105994
## min 1.000000 1.000000
## 25% 2.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title Patricia Routledge in Three Portraits Power Rangers: Dinothunder \
## count 171.000000 359.000000
## mean 3.111111 3.412256
## std 1.347959 1.256254
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title Proteus Reborn from Hell Red Shoe Diaries: Temple of Flesh \
## count 651.000000 106.000000 304.000000
## mean 2.711214 2.367925 2.315789
## std 1.127085 1.197819 1.119412
## min 1.000000 1.000000 1.000000
## 25% 2.000000 1.000000 1.000000
## 50% 3.000000 2.000000 2.000000
## 75% 3.000000 3.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 2.000000 2.000000
## median 3.000000 2.000000 2.000000
##
## Title Restless Souls Reversal of Fortune Royal Deceit Running on the Sun \
## count 308.000000 7912.000000 343.000000 218.000000
## mean 2.227273 3.479146 2.483965 3.715596
## std 1.115615 0.868598 1.025496 1.069836
## min 1.000000 1.000000 1.000000 1.000000
## 25% 1.000000 3.000000 2.000000 3.000000
## 50% 2.000000 4.000000 2.000000 4.000000
## 75% 3.000000 4.000000 3.000000 4.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 2.000000 4.000000 2.000000 4.000000
## median 2.000000 4.000000 2.000000 4.000000
##
## Title Saiyuki Reload Sam Kinison: Family Entertainment Hour \
## count 234.000000 138.000000
## mean 3.752137 3.246377
## std 1.221453 1.236971
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 4.000000 3.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 5.000000 4.000000
## median 4.000000 3.000000
##
## Title Sanford and Son: Season 5 Satan's Little Helper \
## count 871.000000 201.000000
## mean 3.944891 2.432836
## std 1.200266 1.107572
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 2.000000
## 75% 5.000000 3.000000
## max 5.000000 5.000000
## mode 5.000000 3.000000
## median 4.000000 2.000000
##
## Title Saved by the Bell: The College Years: Season 1 Scenes of the Crime \
## count 1307.000000 1198.000000
## mean 3.531752 2.842237
## std 1.359396 0.945102
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 5.000000 3.000000
## max 5.000000 5.000000
## mode 5.000000 3.000000
## median 4.000000 3.000000
##
## Title Schizopolis School of Flesh Scooby-Doo Goes Hollywood \
## count 996.000000 848.000000 1987.000000
## mean 3.141566 2.847877 3.248113
## std 1.280326 1.058711 1.293854
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 2.000000
## 50% 3.000000 3.000000 3.000000
## 75% 4.000000 3.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title Seabiscuit: American Experience Season of the Witch \
## count 5741.000000 69.000000
## mean 4.016199 2.246377
## std 0.914412 1.020464
## min 1.000000 1.000000
## 25% 4.000000 1.000000
## 50% 4.000000 2.000000
## 75% 5.000000 3.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 2.000000
##
## Title Secrets of War: The Gulf War Sex and a Girl Shadow of the Thin Man \
## count 159.000000 73.000000 1042.000000
## mean 2.981132 2.328767 4.127639
## std 1.040154 1.106230 0.901501
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 4.000000
## 50% 3.000000 2.000000 4.000000
## 75% 4.000000 3.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 2.000000 4.000000
## median 3.000000 2.000000 4.000000
##
## Title Sheik / The Son of the Sheik Silent Mobius: Vol. 2 Silent Service \
## count 293.000000 113.000000 105.000000
## mean 3.013652 3.247788 2.571429
## std 1.088460 1.353111 1.284951
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 1.000000
## 50% 3.000000 4.000000 3.000000
## 75% 4.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 4.000000 3.000000
## median 3.000000 4.000000 3.000000
##
## Title Sliders: Seasons 1 and 2 Snake Eyes So Little Time \
## count 2437.000000 13154.000000 1136.000000
## mean 3.879360 3.080280 3.102113
## std 1.081364 0.987461 1.319510
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 2.000000
## 50% 4.000000 3.000000 3.000000
## 75% 5.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 3.000000 3.000000
## median 4.000000 3.000000 3.000000
##
## Title Soap: Season 2 Some Like It Hot Soylent Green \
## count 1589.000000 32781.000000 11276.000000
## mean 4.008181 3.973277 3.427457
## std 1.058400 0.915373 0.955955
## min 1.000000 1.000000 1.000000
## 25% 4.000000 3.000000 3.000000
## 50% 4.000000 4.000000 3.000000
## 75% 5.000000 5.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 5.000000 4.000000 3.000000
## median 4.000000 4.000000 3.000000
##
## Title Spider-Man: The Ultimate Villain Showdown Stacy \
## count 1754.000000 214.000000
## mean 3.415621 2.813084
## std 1.106948 1.203523
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title Stealing Harvard Swing Craze Terror Train \
## count 7312.000000 81.000000 492.000000
## mean 2.757522 2.518519 3.087398
## std 1.041939 1.085255 1.057648
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 2.000000
## 50% 3.000000 3.000000 3.000000
## 75% 3.000000 3.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title That's So Raven: Disguise the Limit The Astronaut's Wife \
## count 303.000000 12750.000000
## mean 3.303630 2.904235
## std 1.342216 1.017845
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title The Basketball Diaries The Bedroom Window \
## count 15089.000000 580.000000
## mean 3.652396 3.012069
## std 0.972372 0.931984
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title The Best of Sessions at West 54th: Vol. 2 \
## count 112.000000
## mean 3.008929
## std 1.035370
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 4.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title The Big Black Comedy Show: Vol. 1 The Boys Club \
## count 301.000000 214.000000
## mean 2.993355 2.864486
## std 1.224727 1.023366
## min 1.000000 1.000000
## 25% 2.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 3.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title The Charge of the Light Brigade The Cheap Killers The Colony \
## count 932.000000 89.000000 121.000000
## mean 2.959227 2.314607 2.198347
## std 1.073282 1.163806 1.053722
## min 1.000000 1.000000 1.000000
## 25% 2.000000 1.000000 1.000000
## 50% 3.000000 2.000000 2.000000
## 75% 4.000000 3.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 1.000000 2.000000
## median 3.000000 2.000000 2.000000
##
## Title The Edge The Firm: Maximum Cardio Burn Plus Abs \
## count 14324.000000 242.000000
## mean 3.553128 2.851240
## std 0.904447 1.199316
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title The Flaming Lips: The Fearless Freaks \
## count 690.000000
## mean 3.978261
## std 1.056237
## min 1.000000
## 25% 4.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 4.000000
## median 4.000000
##
## Title The Good, the Bad and the Beautiful / The Bikini Academy: Double Feature \
## count 70.000000
## mean 2.585714
## std 1.160870
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 3.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title The Grudge The Heroic Trio The Home Front \
## count 41485.000000 855.000000 211.000000
## mean 2.991973 3.052632 2.805687
## std 1.132806 1.098557 0.968635
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 2.000000
## 50% 3.000000 3.000000 3.000000
## 75% 4.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title The Kennedys: American Experience The Ladies Sing the Blues \
## count 118.000000 120.000000
## mean 3.550847 2.825000
## std 1.151717 1.164333
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 4.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 4.000000 3.000000
## median 4.000000 3.000000
##
## Title The Leg Fighters \
## count 110.000000
## mean 2.590909
## std 1.236267
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 3.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title The Love Trap / Directed by William Wyler: Double Feature \
## count 129.000000
## mean 2.821705
## std 1.289680
## min 1.000000
## 25% 2.000000
## 50% 3.000000
## 75% 4.000000
## max 5.000000
## mode 3.000000
## median 3.000000
##
## Title The Marriage Circle The Merchant of Four Seasons The Music Man \
## count 103.000000 345.000000 16337.000000
## mean 2.980583 3.026087 3.830079
## std 1.146013 1.194422 0.992945
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 3.000000
## 50% 3.000000 3.000000 4.000000
## 75% 4.000000 4.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 4.000000
## median 3.000000 3.000000 4.000000
##
## Title The Object of My Affection The Organization \
## count 8937.000000 183.000000
## mean 3.379658 2.918033
## std 0.956696 1.058120
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title The Others: Bonus Material The Paper Chase \
## count 317.000000 5979.000000
## mean 3.271293 3.676702
## std 1.117565 0.861626
## min 1.000000 1.000000
## 25% 3.000000 3.000000
## 50% 3.000000 4.000000
## 75% 4.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title The People Under the Stairs The Quest The Rifleman: Collection 3 \
## count 1762.000000 2406.000000 94.000000
## mean 3.519296 3.055278 2.872340
## std 1.010407 1.154157 1.361799
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 2.000000
## 50% 4.000000 3.000000 3.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 4.000000 3.000000 3.000000
##
## Title The Rundown The Shop Around the Corner The Sisterhood The Smokers \
## count 44295.000000 4543.000000 158.000000 1694.000000
## mean 3.652060 3.801673 1.715190 2.244392
## std 0.924078 0.897463 0.924485 1.086572
## min 1.000000 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 1.000000 1.000000
## 50% 4.000000 4.000000 1.000000 2.000000
## 75% 4.000000 4.000000 2.000000 3.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 4.000000 4.000000 1.000000 2.000000
## median 4.000000 4.000000 1.000000 2.000000
##
## Title The Sunshine Boys The Sweetest Sound The Tai Chi Master \
## count 913.000000 114.000000 118.000000
## mean 3.346112 3.149123 3.093220
## std 0.928726 1.256716 1.183846
## min 1.000000 1.000000 1.000000
## 25% 3.000000 2.000000 2.000000
## 50% 3.000000 3.000000 3.000000
## 75% 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000
##
## Title The Waltons: Season 2 The X-Files: Season 2 The X-Files: Season 6 \
## count 403.000000 10113.000000 7743.000000
## mean 3.915633 4.250272 4.217358
## std 1.280481 0.950285 0.963100
## min 1.000000 1.000000 1.000000
## 25% 3.000000 4.000000 4.000000
## 50% 4.000000 4.000000 4.000000
## 75% 5.000000 5.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 5.000000 5.000000 5.000000
## median 4.000000 4.000000 4.000000
##
## Title There's Something About McConkey Three O'Clock High \
## count 126.000000 1925.000000
## mean 3.238095 3.615065
## std 1.376538 0.954191
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 5.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title Trouble in Paradise Turtles Can Fly Two Shades of Blue \
## count 1341.000000 887.000000 263.000000
## mean 3.777032 3.421646 2.479087
## std 1.122475 1.111353 1.128457
## min 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 2.000000
## 50% 4.000000 4.000000 3.000000
## 75% 5.000000 4.000000 3.000000
## max 5.000000 5.000000 5.000000
## mode 4.000000 4.000000 3.000000
## median 4.000000 4.000000 3.000000
##
## Title Unconstitutional: The War on Our Civil Liberties \
## count 1096.000000
## mean 3.858577
## std 1.112437
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 5.000000
## max 5.000000
## mode 5.000000
## median 4.000000
##
## Title Visitors of the Night Warren Miller's: Storm \
## count 174.000000 608.000000
## mean 2.609195 3.662829
## std 1.018401 1.078378
## min 1.000000 1.000000
## 25% 2.000000 3.000000
## 50% 3.000000 4.000000
## 75% 3.000000 4.000000
## max 5.000000 5.000000
## mode 3.000000 4.000000
## median 3.000000 4.000000
##
## Title West Point: The First 200 Years What Planet Are You From? \
## count 193.000000 2863.000000
## mean 3.207254 2.798114
## std 1.135850 1.015483
## min 1.000000 1.000000
## 25% 3.000000 2.000000
## 50% 3.000000 3.000000
## 75% 4.000000 3.000000
## max 5.000000 5.000000
## mode 3.000000 3.000000
## median 3.000000 3.000000
##
## Title Whatever It Takes When a Man Loves a Woman Whispering Corridors \
## count 89.000000 16839.000000 196.000000
## mean 2.348315 3.596116 2.816327
## std 1.178415 1.011696 1.126346
## min 1.000000 1.000000 1.000000
## 25% 1.000000 3.000000 2.000000
## 50% 2.000000 4.000000 3.000000
## 75% 3.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000
## mode 1.000000 4.000000 3.000000
## median 2.000000 4.000000 3.000000
##
## Title White Men Can't Jump White Zombie Wiggle Bay Winning London \
## count 23730.000000 384.000000 501.000000 1874.000000
## mean 3.309145 3.205729 3.329341 3.495197
## std 0.922239 1.122692 1.230170 1.178753
## min 1.000000 1.000000 1.000000 1.000000
## 25% 3.000000 3.000000 3.000000 3.000000
## 50% 3.000000 3.000000 3.000000 4.000000
## 75% 4.000000 4.000000 4.000000 4.000000
## max 5.000000 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 3.000000 3.000000
## median 3.000000 3.000000 3.000000 4.000000
##
## Title Wise Guys Wolverine Wonder Woman: Season 3 \
## count 211.000000 185.000000 398.000000
## mean 2.981043 2.913514 3.723618
## std 1.064412 1.028444 1.168001
## min 1.000000 1.000000 1.000000
## 25% 2.000000 2.000000 3.000000
## 50% 3.000000 3.000000 4.000000
## 75% 4.000000 3.000000 5.000000
## max 5.000000 5.000000 5.000000
## mode 3.000000 3.000000 5.000000
## median 3.000000 3.000000 4.000000
##
## Title Yes: House of Yes: Live from the House of Blues
## count 99.000000
## mean 3.424242
## std 1.286436
## min 1.000000
## 25% 3.000000
## 50% 4.000000
## 75% 4.000000
## max 5.000000
## mode 4.000000
## median 4.000000
#Tabla agrupada por película y año la valoración.
movies_year_rating = table(netflix$Title, netflix$Year)
movies_year_rating = as.data.frame(movies_year_rating)
movies_year_rating %<>%
rename(MovieTitle = Var1, Year = Var2) %>%
filter(MovieTitle %in% movies_title[1:10,1])
#Representación gráfica.
line_plot = ggplot(movies_year_rating,
aes(x = Year, y = Freq,
group = MovieTitle,
color = MovieTitle,
shape = MovieTitle)) +
scale_shape_manual(values=1:10) +
geom_point() +
geom_line() +
ylab("Ratings number") +
xlab("Rating's year") +
theme_minimal()
div(ggplotly(line_plot), align ="center")Las 10 películas más votadas fueron: Bad Boys, Final Destinatión, Freaky Friday, Good morning Vietnam, Lethal Weapon 3, Meet Joe Black, Monster-in-Law, Some Like It Hot, The Grudge y The Rundown.
Como podemos observar, las 10 películas más calificadas fueron las puntuadas a partir de 1999, recibiendo calificaciones este mismo año 3 películas (Good Morning vietnam, Lethal Weapon 3 y Meet Joe Black). Al año siguiente empezaron a calificar 2 películas más a parte de las anteriores (Bad Boys y Final Destination), en 2001 se sumo la película Some Like It Hot, y un año después las películas The Rundown y Freaky Friday. Seguidamente en 2003 comenzó a recibir calificaciones la película The Grudge y, finalmente, en 2004 empezó a ser calificada la película Monster-in-Law.
Esta cantidad de calificaciones fue aumentando cada año hasta situarse en el 2005 con el año en el cual cada película recibió más calificaciones con excepción de 2 casos: Freaky Friday y te Rundown quienes recibieron la mayor cantidad en el año 2004 con un total de 43.612 y 25.056 votos respectivamente.
El resto de películas, como se ha comentado recibió el mayor número de calificaciones en 2005, siendo estas cantidades:
data = filter(netflix, Title %in% movies_title[1:10,1]) %>%
group_by(Title, Year) %>%
summarise(mean = mean(Rating))
ggplot(data, aes(fill=Title, y=mean, x=Year)) +
geom_bar(position="dodge", stat="identity", show.legend = FALSE) +
facet_wrap(~Title, scales='free') +
scale_x_discrete(limits=c("1999", "2000", "2001", "2002", "2003", "2004", "2005")) +
scale_y_discrete(limits=c(0:5)) +
theme(panel.spacing.x=unit(1, "lines") , panel.spacing.y=unit(1.5,"lines"),
axis.text.x = element_text(angle = 90))
# Image in the visualization
image = image_read("imgs/icon-netflix.png")
grid.raster(image, x = 0.75, y = 0.2, height = 0.35)Calificación media por año y película.
data_boxplot = filter(netflix, Title %in% movies_title[1:5, 1])
boxplot = ggplot(data_boxplot, aes(Title, Rating, group=Title)) +
geom_boxplot(
fill = c("lightsalmon1", "palegreen2", "tomato2", "thistle3", "paleturquoise2" ),
colour = c("lightsalmon4", "palegreen4","tomato4", "thistle4", "paleturquoise4" ),
outlier.colour = c("lightsalmon4", "palegreen4","tomato4", "thistle4", "paleturquoise4" )) +
geom_point(stat= "summary", shape=20, size=2, color="gray28") +
theme(axis.text.x = element_text(angle = 45))
div(ggplotly(boxplot, height = 550), align ="center")#Más votadas
data_morevoted = filter(netflix, Title == movies_title[1, 1])
ggplot(data_morevoted, aes(x = Rating)) +
geom_bar(aes(y = ..count.., fill = ..count..),
stat="count",
show.legend = FALSE) +
geom_label(aes(label = ..count.., y = ..count..),
stat = "count",
vjust = -.5) +
scale_fill_gradient(low = "cadetblue1", high = "cadetblue4")+
labs(x = "Rating", y = "Number of ratings", title = data_morevoted$Title[1]) +
scale_y_continuous(limits=c(0,45000)) +
coord_flip() +
theme_classic()
#Image in the visualization
image = image_read("imgs/masvotada.jpg")
grid.raster(image, x = 0.80, y = 0.35, height = 0.4)Calificaciones de la película más votada.
La película que ha obtenido el mayor número de calificaciones es “Good morning, Vietnam”, una película dramática estadounidense estrenada en 1987.
#Menos votada
data_lessvoted = filter(netflix, Title == movies_title[nrow(movies_title), 1])
ggplot(data_lessvoted, aes(x = Rating)) +
geom_bar(aes(y = ..count.., fill = ..count..),
stat="count",
show.legend = FALSE) +
geom_label(aes(label = ..count.., y = ..count..),
stat = "count",
vjust = -.5) +
scale_fill_gradient(low = "darkgoldenrod1", high = "darkgoldenrod3") +
labs(x = "Rating", y = "Number of ratings", title = data_lessvoted$Title[1]) +
scale_y_continuous(limits=c(0,8)) +
coord_flip() +
theme_classic()
# Image in the visualization
image = image_read("imgs/menosvotada.jpg")
grid.raster(image, x = 0.80, y = 0.35, height = 0.4)Calificaciones de la película menos votada.
Para estudiar la distribución del número de películas que se estrenaron cada año, realizamos un histograma que muestre por cada década desde el 1920 al 2010 el porcentaje total de producciones realizadas para ese periodo de años.
break_range = seq(from = 1920, to = 2010, by = 10)
hist_plot1 = ggplot(data = df_movies) +
geom_histogram(aes(x = MovieRelease, y = ..count../sum(..count..)),
breaks = break_range,
color = c("darkgoldenrod2", "lightgoldenrod1", "lightblue", "palegreen3",
"lightpink2", "plum3", "steelblue3", "darkolivegreen3", "salmon3"),
fill = c("darkgoldenrod1", "khaki1", "lightblue", "palegreen", "lightpink1",
"plum2", "steelblue1", "darkolivegreen2", "salmon1"),
size = 1) +
geom_density(aes(x = MovieRelease, y = 10*..density..),
color = "black",
fill = "seashell3",
size = 1,
alpha = 0.2,
show.legend = FALSE) +
scale_x_continuous(breaks = break_range) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1),
limits = c(0, 0.5)) +
scale_color_gradient(low = "indianred1", high = "red2") +
ylab("% of movies") +
xlab("Movie release's decade") +
ggtitle("Percentage of movies released by decade") +
theme_minimal()
div(ggplotly(hist_plot1), align ="center")Como podemos observar en el gráfico, el número de películas estrenada según la década sigue una distribución asimétrica negativa.
En netflix se valoraron solo 1.7% de películas estrenadas en la década 1920. Dicho porcentaje ha ido aumentando en las posteriores décadas hasta los 90 donde se alcanza el punto prominente con un 38% del total de calificaciones registradas en el presente estudio. A principios de los 2000 el número de votaciones ha descendido aproximadamente un 10% respecto a la década anterior, pero esto se debe al muestreo de películas que estamos analizando.
En general, se puede concluir que cuanto más moderna es la película más votaciones tiene, puesto que la gente prefiere visualizar producciones más actuales que antiguas. Esto también puede darse por el catálogo de Netflix, que dispone de películas más actuales.
netflix %>%
count(YearsSinceRelease, Rating) %>%
ggplot(mapping = aes(x = Rating, y = YearsSinceRelease)) +
geom_tile(mapping = aes(fill = n, width = 0.9, height = 0.9),
size = 2) +
scale_fill_gradientn(colours = c("lightgoldenrod1", "coral", "orange", "purple", "maroon")) +
theme_minimal()Calificaciones según la diferencia entre años de estreno y de votación.